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摘 要 : 视觉 里 程 计 通过 分 析 相机 所 获取 的 图 像 流 信 息 估 计 移 动机 器 人 的 位 姿 。 为 了 深入 分 析 视 觉 里 程 计 算法 的 发 展 
现状 ， 结 合 一 些 先进 的 视觉 里 程 计 系统 ， 综 述 了 视觉 里 程 计 的 相关 技术 以 及 最 新 的 研究 成 果 。 首 先 简 述 了 视觉 里 程 计 
的 概念 和 发 展 历程 ， 介 绍 了 视觉 里 程 计 问题 的 数学 描述 和 分 类 方法 ; Re, FMRI MELA MARA, Bi 
特征 模块 、 帧 间 位 姿 估计 和 减少 漂移 ; 此 外 ， 还 介绍 了 基于 深度 学 习 的 视觉 里 程 计 的 发 展 动态 。 最 后 ， 总 结 了 视觉 里 
程 计 目前 存在 的 问题 ， 展 望 了 未 来 的 发 展 趋势 。 
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Abstract: Visual odometry (VO) estimates the pose of a mobile robot by analyzing the image flow captured by the equipped 
cameras. In order to analyze the development of VO algorithms, this paper reviewed the related technologies of VO and the up- 
to-date research state combined with some advanced VO systems. Firstly, this paper described the concept and the evolution of 
VO, and introduced the mathematical description and the classification of VO. Then, it analyzed the key technologies of VO in 
details, including feature selection, motion estimation and drift reduction. In addition, it also introduced the latest deep learning 


based VO. At last, it discussed the existing problems and prospects the development trend of VO. 
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0 als 完成 了 机 器 人 的 室内 导航 。1987 Æ, Matthies 等 人 BI 设计 了 从 
= 村 征 提取 、 特 征 匹配 与 跟踪 到 运动 估计 的 理论 框架 ， 该 框架 至 


在 移动 机 器 人 系统 中 ， 要 进行 目标 探测 和 定位 ， 对 于 自身 ” 今 仍 为 大 多 数 VO 系统 所 遵循 。 绝 大 多 数 早期 的 VO 系统 主要 
位 姿 的 估计 非常 重要 。 传 统 的 位 姿 估计 方法 有 GPS, IMU, $ 应 用 于 行星 探测 和， 其 中 最 典型 的 当 属 美国 NASA 的 火星 探 
速 传感器 和 声 纳 定位 系统 等 里 程 计 技术 。 近 年 来 ， 相 机 系统 变 WAH. VO 在 火星 探测 器 中 用 于 在 轮 速 传感器 失效 时 测量 6 
得 更 加 便宜 ， 分 辨 率 和 帧 率 也 更 高 ， 计 算 机 的 性 能 有 了 显著 提 ” ”个 自由 度 参 数 。VO 这 个 术语 是 由 Nister 等 人 四 在 2004 年 创造 


高 ， 实 时 的 图 像 处 理 成 为 可 能 。 一 种 新 的 位 姿 估 计 方 法 因此 而 的。 他们 设计 了 一 种 实时 的 VO 系统 ， 真 正 意义 上 实现 了 机 器 
产生 ， 即 视觉 里 程 计 (vision odometry, VO). VO 仅 利用 单个 或 ”人 室外 运动 导航 ， 同 时 还 提出 了 两 类 VO 的 实现 途径 和 流程 ， 


多 个 相机 所 获取 的 图 像 流 估计 智能 体位 姿 巾 。 它 的 成 本 较 低 ， 即 单 目 视觉 和 立体 视觉 的 方法 ， 这 为 后 来 VO 的 研究 商定 了 新 

能 够 在 水 下 和 空中 等 GPS 失效 的 环境 中 工作 , 其 局 部 漂移 率 小 的 基础 。 

于 轮 速 传感器 和 低 精 度 的 IMU, 它 所 获得 的 数据 能 够 很 方便 的 与 VO 紧密 相关 的 一 个 领域 是 基于 视觉 的 同时 定位 与 地 图 

和 其 他 基于 视觉 的 算法 融合 ， 省 去 了 传感器 之 间 的 标定 。 构建 技术 (visual simultaneous localization and mapping,V- 
从 连续 的 图 像 序列 中 估计 相机 自 运 动 的 思想 最 早 由 SLAM), V-SLAM 在 一 个 未 知 的 环境 中 对 机 器 人 进行 自 定位 


T 


Moravec 等 人 中 提出 。 他 利用 一 个 可 滑动 的 相机 获取 视觉 信息 并 实时 重建 环境 的 三 维 结构 。 它 的 目标 是 获得 对 机 器 人 运动 轨 
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录用 稿 


迹 的 全 局 一 致 和 


EHR, FH 


于 局 部 运动 估计 的 VO 更 


估计 ， 这 意味 着 机 器 人 必须 能 够 识别 曾经 到 过 


RÉI 
的 地 方 ， 这 个 过 程 被 称 为 闭环 检测 。 而 VO 是 增 量 式 的 重 构 路 
fZ, ERR GOPE H Ja A 不 


E。 从 实时 性 和 玫 


为 摄像 机 内 部 参数 


假设 智能 体 在 环境 中 运动 ， 装 载 在 智能 体 上 的 相机 与 智能 


体 之 间 不 存在 相 


对 运动 。 相 机 在 离散 时 间 x 拍摄 图 像 ， 在 各 个 


于 大 范围 运动 的 移动 机 器 人 。 


过 去 曾经 | 


8 现 过 一 些 有 关 VO 的 综述 文献 ”由 ,尤其 是 


Scaramuzza 等 人 的 两 篇 文章 系统 的 介绍 了 VO 在 2012 年 


以 前 的 发 展 沁 


A 况 。 但 是 ， 近 几 年 VO 技术 
随 着 大 量 高 性 能 VO 系统 的 


的 VO 技术 的 发 展 。 本 文 在 综述 过 程 中 ， 


的 VO AAR. MHA 
学 描述 及 其 分 类 ; 然后 重点 综述 了 特征 模块 、 
减少 漂移 等 VO 的 关键 技术 。 针 对 近 几 自 
习 的 VO， 简 述 了 它 的 发 展 动态 并 分 析 了 它 的 


绍 


虑 到 算法 评价 对 于 VO 发 展 的 重要 性 ， 
。 最 后 总 结 了 VO 


的 VO ASEH 
它 的 发 展 趋势 。 


1 ”视觉 里 程 计 概况 


取得 了 很 大 的 进步 ， 


现 ， 这 些 文献 已 经 不 能 反映 最 新 


了 一 些 先进 


了 VO 的 概况 ， 包 括 VO 问题 的 数 
顺 间 位 姿 估 计 和 
岗 的 基于 深度 学 
优势 和 不 足 。 考 
文章 还 介绍 了 三 个 常用 


目前 存在 


的 问题 ， 展 望 了 


1.1 视觉 里 程 计 问 题 数学 描述 


摄像 机 模 


很 多 摄像 机 模型 ， 
模型 等 ， 其 中 最 


世界 投影 到 二 维 攻 


平面 的 函数 。 有 


投影 模型 、 全 方向 摄像 机 


本 也 是 最 常 


影 中 ， 远 的 目 


视觉 以 及 大 多 数 摄像 机 是 相符 的 。 透 视 投 影 的 几何 


j 的 是 透视 投影 模型 。 
和 目标 看 起 来 小 一 些 ， 这 个 


模型 、 球 形 
在 透视 投 
性 质 与 人 类 


为 三 维 世界 中 的 一 点 ， 点 p=[u,vJ 是 它 在 图 像 平 


的 直角 坐标 系 称 为 摄 
平行 ，z 轴 为 摄像 机 光 轴 ， 它 与 图 
面 的 交点 (c,,c,) 即 为 


关系 如 图 1 


Ara. KH C 点 称 为 摄像 机 光 心 ， 由 点 C 与 x、y、z 轴 组 成 
像 机 坐标 系 。 x 、y 轴 与 图 
像 平面 垂直 。 光 轴 与 图 像 平 
到 像 坐标 系 的 原点 。 图 中 点 P=[X,Y,Z]" 


Blu. v 轴 


而 上 的 投影 。 
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+H 


Ds 
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w 


下 形式 : 


RE: fo FAIDE, 


摄像 机 透视 投影 模 
BOF 
Si 0 u X 
0 f c iY 
0 0 Z 
》 方 回 的 焦距 ， 


看 的 透视 投影 方程 可 以 表示 为 如 


(1) 


fur 大、 C, > 


c, 只 与 摄像 机 内 部 结构 有 关 ， 因 此 称 为 摄像 机 内 部 参数 ，K 称 


时 刻 所 拍摄 的 图 像 序列 可 以 表示 为 人 = ihah} 。 从 时 刻 大 -1 


到 时 刻 的 坐标 变换 碟 ，, s 玉 ”可 以 表示 为 如 下 形式 : 
Tus es val o 

这 里 : Rs SOG) HEE, tpi eR” EFE. 
考虑 到 式 (1) 中 使 用 的 是 点 己 在 当前 帧 相机 坐标 系 下 的 坐 

标 。 由 于 相机 在 运动 ， 所 以 pp 在 当前 帧 中 的 坐标 应 该 是 它 在 前 
一 帧 中 的 坐标 根据 相机 的 位 姿 变换 得 到 的 结果 ， 于 是 有 


f, 0 X X 
u c 
u u R t Y Y 
vj=|0 f 5&6, | a. a =KT, xa 6) 
1 0 0 1 i í A 
1 1 


上 式 两 侧 都 是 齐 次 坐标 ， 因 为 齐 次 坐标 乘 上 非 零 常数 后 表 
达 同 样 的 含义 ， 所 以 这 里 去 掉 了 ze Ta, 又 称 为 相机 的 外 部 参 
数 矩 阵 ， 它 是 VO 中 待 估计 的 目标 。 友 ，， 的 计算 方法 将 在 本 文 


2.2.2 节 中 介绍 。 


为 了 便于 表达 , KT, MWEE T, a 简写 为 了 。 假 设 集合 
T. =T.. T) 包含 所 有 相 邻 帧 之 间 的 相对 运动 。 集 合 
C, = (Cp, C) 包含 所 有 相对 于 大 = 0 时 刻 的 初始 坐标 的 位 姿 。 


当前 位 姿 C, 可 以 由 相 邻 帧 之 间 的 相对 运动 厂 (K=1...0 以 及 


k=0 时 刻 的 初始 位 姿 Co 计算 得 到 ， 即 
C =C T=GT...T, (4) 

VO 的 主要 任务 是 从 图 像 / 和 /中 计算 出 相对 运动 工 ， 
进而 恢复 出 相机 的 全 部 轨迹 C， 。 
1.2 视觉 里 程 计 分 类 
厘清 VO 的 分 类 有 助 于 从 宏观 上 理解 整个 领域 的 概况 。 从 
不 同 的 角度 来 看 VO 可 以 有 多 种 分 类 方法 ,按照 相机 的 类 型 VO 
可 以 分 为 单 目 、 立体 和 RGB-D 三 类 ; 按照 利用 的 图 像 信息 可 以 
分 为 特征 法 和 直接 法 的 VO; 按照 减少 漂移 的 方法 可 以 分 为 采 
用 滤波 器 和 非 线 性 优化 法 的 VO。 表 1 列 出 了 一 些 常见 的 VO 
系统 及 其 分 类 。 


表 1 常见 的 VO 系统 及 其 分 类 


系统 名 称 相机 类 型 到 像 信息 ”减少 漂移 
svol 单 目 接 法 “ 非 线 性 优化 
PTAM03] 单 目 特征 法 ” 非 线 性 优化 
ORB-SLAM2!"* 中 ” 单 目 、 立 体 、RGB-D ”特征 法 ” 非 线性 优化 
VISO209 单 目 、 立 体 特征 法 滤波 器 
LSD-SLAM"7! 单 目 接 法 “ 非 线 性 优化 
TLBBA"®! 立体 特征 法 “ 非 线 性 优化 
MonoSLAM"”! 单 目 特征 法 滤波 器 
DEMO”! RGB-D 特征 法 “ 非 线 性 优化 
RTAB-MAP?!) 立体 、RGB-D 特征 法 “ 非 线 性 优化 
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RAAB ALE, $: 视觉 里 程 计算 法 研究 综述 
1.2.1 单 目 、 立 体 和 RGB-D 特征 点 对 通常 会 包含 一 些 不 符合 数学 模型 的 异常 数据 ， 这 些 数 


单 目 视觉 VO 系统 使 用 单 目 相机 作为 传感器 。 单 目 视觉 的 据点 被 称 为 外 点 。 外 点 对 于 运动 估计 会 产生 严重 的 影响 ， 因 此 
优势 在 于 传感器 简单 、 成 本 低 、 环 境 适应 性 强 。 但 是 它 的 最 大 ”需要 排除 这 些 点 。 接 下 来 是 根据 余下 的 特征 点 对 计算 当前 帧 与 
问题 是 无 法 确定 目标 的 绝对 深度 ， 因 此 所 获得 的 运动 轨迹 的 尺 ” 前 一 帧 之 闻 相 机 的 相对 运动 ， 也 就 是 运动 估计 。 外 点 排除 和 运 
度 是 模糊 的 。 解 决 这 个 问题 要 求 已 知 空间 中 某 两 点 之 间 的 距离 ， “” 动 估 计 通 常 是 一 个 迭代 的 过 程 。 由 于 所 获得 的 两 帧 闻 的 位 姿 估 

的 


或 者 结合 其 他 的 传感器 ， 比 如 激光 雷达 、IMU 等 。 另 一 方面 ， 计 不 可 避免 的 会 产生 误差 累积 ， 因 此 需要 使 用 一 些 减少 漂移 
单 目 视觉 估计 空间 点 位 置 需要 依靠 前 后 两 帧 之 间 的 三 角 测量 。 方法 获得 更 精确 的 相机 位 姿 , 主要 有 滤波 器 法 和 非 线性 优化 法 。 
而 且 , 相机 的 运动 不 能 是 单纯 的 旋转 。 这 些 问题 使 单 目 视觉 VO oe ia 
的 应 用 受到 J 一 定 的 限制 ` 特征 模块 | 生 优 化 法 


(Bern DH 特征 检测 p 特 征 匹配 aH 外 点 排除 H zani Lam] 减少 漂移 »{ tw) 


立体 视觉 VO 系统 使 用 双 目 或 者 多 目 相 机 作为 传感器 。 立 
体 视 觉 利 用 相机 之 间 固 定 的 基线 获取 深度 信息 ， 能 够 避免 单 目 2 VO 实现 流程 
视觉 的 尺度 模糊 问题 ， 只 需要 在 一 帧 内 即 可 完成 三 角 测量 。 但 2.1 特征 模块 
是 ， 立 体 视觉 相机 成 本 较 高 ， 相 机 标定 较 复杂 。 测 量 深 度 需 要 特征 模块 是 之 后 的 位 姿 估 计 的 基础 ， 下 面 分 别 介 绍 特征 的 
进行 立体 匹配 ， 这 个 过 程 非常 耗 时 。 而 且 ， 其 量程 受到 基线 长 ” 检测 和 匹配 。 
度 的 限制 ， 当 测量 深度 远大 于 基线 时 ， 立 体 视 觉 就 会 退化 为 单 2.1.1 特征 检测 
目 视觉 。 单 目 和 立体 视觉 都 有 各 自 的 优势 和 不 足 ， 目 前 来 看 ， 经 典 的 特征 检测 算法 主要 有 Moravec, Forstner, Harris, 
二 者 处 于 均衡 的 发 展 状态 。 Shi-Tomasi, SUSAN, FAST, SIFT, SURF, MSER 以 及 Censure 
RGB-D 相机 兴起 于 2010 年 左右 ， 它 能 够 同时 获得 颜色 和 S, HPA HarrisP3 和 SIFTP3] 两 种 算法 应 用 最 为 广泛 。Harris 
深度 信息 。 相 比 于 立体 视觉 , RGB-D 相机 能 够 节省 大 量 计 算 深 ”和 角 点 对 噪声 以 及 旋转 变化 都 具有 较 强 的 稳定 性 ， 能 够 提供 丰富 
度 信息 的 时 间 。 然 而 ， 目 前 大 多 数 RGB-D 相机 存在 测量 范围 。 的 信息 , 是 基于 视觉 的 位 姿 估计 系统 常用 的 特征 检测 算法 62。 
小 、 对 日 光敏 感 等 问题 ， 因 此 主要 用 于 室内 环境 。 尽 管 RGB-D ZAM, Harris 角 点 对 尺度 和 仿 射 变换 都 较为 敏感 ，parra 等 2 证 


相机 出 现 的 时 间 较 晚 ,但 发 展 迅 速 , 有 很 多 优秀 的 VO TREO 明了 Harris 角 点 在 场景 中 存在 重复 的 纹理 特征 时 ， 很 容易 产生 
国都 是 基于 RGB-D 相机 的 。 误 匹 配 , 他 们 认为 SIFT 特征 点 更 适合 应 用 于 VO 系统 中 。SIFT 
1.2.2 特征 法 和 直接 法 算法 对 旋转 和 尺度 具有 不 变性 ， 对 光照 、 视 角 变 化 和 噪声 也 有 


特征 法 是 从 稠密 图 像 数 据 中 提取 出 一 些 显著 特征 进行 计算 。 较 强 的 稳定 性 , 因而 很 多 VO 系统 采用 了 SIFT RIELA? SIFT 
地 征 法 的 VO 系统 运行 稳定 、 计 算 成 本 较 低 ， 对 光照 、 图 “算法 的 缺点 是 计算 效率 很 低 ， 为 了 满足 实时 性 的 要 求 ， 
像 噪声 等 不 敏感 。 特 征 法 VO 的 缺点 是 不 适合 在 缺少 特征 的 场 ITLBBAN8 充 分 考虑 了 VO 工作 的 具体 条 件 ,简化 了 SIFT 算法 ， 
景 中 应 用 ， 如 渐变 的 图 像 。 直 接 法 是 利用 图 像 或 某 个 子 区 域 中 ”通过 引入 GPU 使 特征 跟踪 频率 达到 40HZ。 
所 有 像素 的 灰 度 信息 计算 相机 的 运动 。 使 用 直接 法 的 VO 系统 近年 来 ， 研 究 人 员 在 经 典 的 特征 检测 算法 的 基础 上 提出 了 
不 要 求 图 像 中 有 特征 点 ， 只 需要 有 像素 梯度 即 可 。 它 充分 利用 ”许多 新 的 算法 ,2011 Æ, Rublee 等 人 在 FAST 和 BRIEF 算法 的 
图 像 信 息 ， 有 利于 实现 构建 稠密 地 图 等 其 他 的 视觉 应 用 。 但 基础 上 提出 了 ORB 算法 PR9, 它 具有 良好 的 旋转 和 尺度 不 变性 ， 


J 
是 直接 法 的 计算 量 较 大 ， 不 适合 大 运动 的 情况 ， 而 且 直 接 法 要 ” 速度 是 SIFT 的 30-50 fi. ORB 被 成 功 应 用 于 著名 的 ORB- 
求 图 像 必须 满足 像素 灰 度 值 不 变 的 假设 ， 而 这 种 假设 会 由 于 光 SLAME* 5 中 ， 表 明 它 是 一 种 兼顾 了 精度 和 效率 的 优秀 的 特征 


图 
照 等 原因 被 破坏 。 根 据 使 用 像素 数量 的 不 同 ， 直 接 法 可 以 分 为 算法 。 同 年 ，Leutenegger 等 人 提出 了 BRISK 算法 R17， 采 用 自 
稀 琉 、 半 稠密 和 稠密 三 种 。 尽 管 近年 来 直接 法 的 VO 出 现 了 适应 通用 加 速 分 割 算 法 ， 其 特征 检测 速度 比 ORB 更 快 。2012 
SVONA, LSD-SLAMU 712% — 46 WJH, 但 是 目前 成 熟 的 方案 较 少 ， 年 ，Alcantarilla 等 人 提出 了 基于 非 线性 尺度 空间 理论 的 KAZE 


主流 的 VO 依然 采用 特征 法 。 算法 Pal, 与 SIFT 相 比 , KAZE 具有 更 好 的 尺度 和 旋转 不 变性 。 
2013 年 ， 他 们 又 发 布 了 改进 的 A-KAZE 算法 Pa， 计算 速度 有 


2 视 说 os & ` 
视觉 里 程 计 关键 技术 RAER 


VO 遵循 特征 模块 、 帧 间 位 姿 估 计 和 减少 漂移 的 理论 框架 ， 2.1.2 特征 匹配 
实现 流程 如 图 2 所 示 。 特 征 模块 包括 特征 检测 和 特征 匹配 。 每 在 完成 特征 检测 之 后 ， 需 要 将 每 个 特征 点 及 其 邻 域 转换 成 
获取 一 帧 新 的 图 像 ， 算 法 首先 要 检测 一 些 显著 性 强 、 可 重复 性 ”一 个 紧 致 的 描述 符 ， 以 便 与 其 他 的 描述 符 相 匹配 。 经 典 的 特征 
高 的 图 像 特征 用 于 位 姿 估 计 ， 然后 在 当前 帧 与 前 一 帧 图 像 之 间 ”描述 符 是 SIFTP3 以 及 由 它 发 展 而 来 的 SURFB0。SIFT 已 被 证 
进行 特征 匹配 .特征 匹配 的 目的 是 在 两 帧 图 像 中 找到 特征 点 对 ， 对 光照 、 旋 转 、 尺 度 和 高 达 60 度 的 视角 变换 都 具有 很 好 的 稳 
特征 点 对 是 相同 的 三 维 空间 点 在 两 帧 图 像 上 投影 产生 的 二 维 点 。 定性 。SURF 用 箱 型 滤波 器 来 近似 高 斯 差分 滤波 器 ， 能 够 带 来 
帧 闻 位 姿 估计 包括 外 点 排除 和 运动 估计 。 通 过 特征 匹配 产生 的 “更 高 的 计算 效率 。 此 外 , 还 有 一 些 描述 符 从 SIFT 发 展 而 来 ， 如 


党 
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PCA-SIFTB1、DAISY0B23 等 ， 这 些 描述 符 主要 是 针对 SIFT 效率 
低 的 缺点 加 以 改进 。 

从 2010 年 开始 出 现 了 一 些 二 进 制 字符 串 描 述 符 ， 包 括 
BRIEF®3!, ORB’, BRISK27], FREAKBAJI NESTEDS5122, 3x 
些 描述 符 的 效率 普遍 高 于 浮 点 型 描述 符 。 Hartmann 等 人 B9 比 较 
了 SIFT, SURF, BRIEF, ORB, BRISK 及 FREAK 等 六 种 描述 
符 , 结果 显示 SIFT 依然 获得 了 最 高 的 精度 , 如 果 将 计算 效率 作 
为 所 要 考虑 的 主要 因素 ， 那 么 BRIEF 是 最 好 的 选择 。Khan 等 
人 671 使 用 八 种 图 像 数据 集 比 较 了 当前 流行 的 一 些 特征 描述 符 ， 
结果 显示 SIFT 的 综合 表现 最 好 。 在 二 进 制 描述 符 中 , NESTED 
获得 了 最 佳 的 效果 。 值 得 注意 的 是 ， 他 们 从 每 种 图 像 数 据 集 中 
所 得 到 的 比较 结果 不 尽 相 同 ， 这 说 明 特 征 算法 的 性 能 与 场景 有 
关 。 


ul 


特征 匹配 就 是 要 通过 一 定 的 相似 性 度量 准则 在 两 组 特征 点 
集合 中 找到 对 应 的 特征 点 对 。 相 似 性 度量 准则 包括 欧式 距离 和 
汉 明 距离 等 。 通 常 欧 氏 距离 适合 浮 点 型 特征 描述 符 ， 而 汉 明 距 
离 适 合 二 进 制 字 符 串 描述 符 。 特 征 匹配 过 程 中 涉及 到 的 一 个 重 
要 问题 是 匹配 搜索 算法 。 最 常用 的 匹配 搜索 算法 是 近似 最 近邻 
CANN) 搜 索 。ANN 能 够 以 较 小 的 准确 率 的 代价 换取 搜索 速度 
的 大 幅 提 升 。1997 年 ，Beis 等 人 提出 了 一 种 基于 近似 Kd- 树 的 
BBF 算法 B91。 该 算法 能 够 以 95% 的 概率 找到 最 近 令 点， 并且 将 
速度 提高 1000 倍 ， 因 此 得 到 广泛 应 用 户 ' 约 。 其 他 ANN 算法 还 
有 Spill-tree®!, 4} JE -均值 树 [0 和 随机 kd-p OSE ey 
ORB-SLAM"* 吴 采 用 的 词 袋 模型 吕 ，LSD-SLAMM"1 采 用 的 
FAB-MAP 方法 由] 都 是 高 效 的 匹配 搜索 算法 。 为 了 加 快 搜索 速 
E, 还 可 以 为 搜索 区 域 添加 一 定 的 约束 , 如 运动 模型 约束 06 A, 
三 维特 征 点 位 置 约束 [和 和 极 线 约束 P24 等 。 

2.2 帧 间 位 姿 估 计 
2.2.1 外 点 排除 

外 点 的 来 源 主要 有 两 个 途径 : a) 误 匹配 ， 产 生 误 匹 配 的 原 
因 包 括 图 像 噪声 、 光 照 、 视 角 变化 以 及 特征 匹配 算法 本 身 所 产 
生 的 误 匹 配 等 ，b) 场 景 中 的 运动 目标 。 这 些 外 点 会 对 运动 估计 
产生 重大 影响 ， 为 了 获得 精确 的 运动 估计 结果 必须 去 除 它们 。 
一 种 经 典 而 有 效 的 排除 外 点 的 方法 是 随机 抽样 一 致 性 
CRANSAC ) 4072891, RANSAC 算法 通过 和 迭代 可 以 从 含有 大 量 
外 点 的 数据 集合 中 提取 最 优 子 集 。 RANSAC 算法 的 基本 思想 是 
从 全 集中 随机 抽取 一 个 样本 集 ， 计 算 模 型 参数 ， 然 后 用 所 得 到 
的 模型 参数 验证 全 集中 的 其 他 数据 点 。 经 过 多 次 迭代 ， 能 够 在 
数据 点 中 获得 最 高 一 致 性 的 模型 参数 就 作为 模型 的 解 ， 而 那些 
与 这 个 模型 参数 不 一 致 的 数据 点 就 作为 外 点 。 样 本 集 的 大 小 一 
般 设 定 为 能 够 解 出 模型 参数 的 最 小 值 ， 例 如 在 立体 视觉 中 ， 这 
个 数值 通常 为 3。RANSAC 算法 需要 精心 选取 的 主要 参数 是 迭 
代 次 数 M m 可 以 用 如 下 公式 来 估计 : 

reese 2 
s 表示 样本 集 的 大 小 ，s 是 估计 的 全 集中 某 点 是 外 点 的 


其 中 : 


概率 ，p 是 要 求 的 获得 合理 结果 的 概率 。 图 3 是 一 个 使 用 
RANSAC 算法 排除 外 点 的 例子 (红色 “+” 表 示 排 除 掉 的 点 


绿色 “+” 表 示 保 留 的 点 )。 


a 


图 3 RANSAC 算法 排除 外 点 

RANSAC 算法 是 一 种 非 确定 性 的 算法 , 也 就 是 说 每 次 执行 
算法 所 得 到 的 结果 都 可 能 是 不 一 样 的 。 它 是 以 一 定 的 概率 获得 
合理 的 结果 ， 连 代 的 次 数 越 多 ， 这 种 概率 就 越 大 。 实 际 上 ， 
RANSAC 算 法 已 经 成 为 了 VO 系统 中 排除 外 点 的 一 种 通用 方法 
[4 41]。 近 些 年 出 现 了 一 些 RANSAC 算法 的 改进 版 本 。 针 对 
RANSAC 算法 效率 低 的 问题 ，Pretto 等 人 提出 了 MLESAC 算 
YES), Ej RANSAC 计算 内 点 的 数量 不 同 ，MLESAC 通过 将 误 
差 表示 为 一 个 混合 模型 用 以 评估 假设 的 相似 性 。Chum 等 人 提 
出 了 一 种 指导 抽样 过 程 的 PROSAC 算法 [9， 这 种 算法 的 应 用 
前 提 是 输入 数据 的 先 验 信息 是 已 知 的 ， 即 需要 已 知 哪些 数据 点 
更 可 能 是 外 点 。 类似 地 , Rusu 等 人 5 提出 根据 最 相似 特征 直方 
图 抽取 数据 点 .Raguram 等 人 G1 详细 分 析 比 较 了 与 RANSAC 相 
关 的 各 种 算法 ， 最 后 提出 了 一 种 自 适 应 的 实时 RANSAC 算法 
ARRSAC。 

除了 RANSAC 以 及 它 的 众多 衍生 方法 之 外 ， 人 们 还 从 其 
他 角度 提出 了 一 些 不 同 的 外 点 排除 方法 。VISO2-S09 采 用 三 角 
剖 分 投票 法 去 除外 点 。 一些 文献 S553 还 使 用 了 一 种 bucketing 技 
术 ， 这 种 技术 能 够 使 特征 点 尽 可 能 均匀 的 分 布 在 整个 图 像 上 ， 
这 会 提高 VO 的 精度 。 然 而 ，VO 领域 对 于 运动 目标 产生 的 外 
点 的 研究 较 少 ， 如 PTAMU3]、ORB-SLAM04 15, LSD-SLAMH7] 
等 系统 都 假设 场景 是 静止 不 变 的 ,因而 不 适合 变化 较 大 的 场景 。 
针对 这 种 情况 ， 浙 江 大 学 研发 的 RDSLAM 系统 563 能够 在 线 检 
测 场景 的 变化 ,识别 出 改变 的 三 维 点 。 还 有 一 些 文献 4 只 检测 
图 像 中 的 地 面 点 。Ci 等 人 59 根据 车 辆 运动 的 平滑 性 原理 提出 了 
一 种 空间 位 置 约束 法 去 除 运动 点 。 然 而 这 些 方 法 无 法 处 理 短 时 
间 内 发 生 重大 变化 的 场景 , 因此 这 方面 仍然 有 很 大 的 发 展 空间 。 
2.2.2 运动 估计 

运动 估计 是 VO 系统 中 的 核心 计算 步 又。 更 准确 的 说 ， 是 
计算 相机 在 当前 图 像 到 和 前 一 帧 图 像 T_ 之 间 的 变换 矩阵 


1。 通过 串联 这 些 单 步 的 运动 ,能 够 完整 地 恢复 相机 和 智能 


体 的 轨迹 。 假 设 第 -1 帧 和 第 4 帧 上 有 两 组 对 应 的 特征 点 ， 根 


据 特征 点 对 是 二 维 的 还 是 三 维 的 ,有 三 种 计算 到 的 方法 ， B 


3D-3D、3D-2D 和 2D-2D。 
3D-3D 是 从 三 维 点 对 中 求解 运动 ， 通 常用 
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Toa 可 以 通过 最 小 化 三 维 点 对 之 间 的 欧 氏 距离 来 进行 估计 。 即 


Tac aremin D |O, TQ. © 


其 中 : i 表示 第 i 个 特征 点 ，Q, 和 @_ DIERE WARES 上 -1 W 


上 特征 点 的 三 维 仿 射 坐标 ， 即 Q=[XYZ,1]。 求 解 这 个 问题 至 
少 需要 三 对 非 共 线 的 三 维 点 。 尽 管 使 用 更 多 的 点 对 会 增加 计算 
量 ， 但 是 这 会 提高 运动 估计 的 精度 ， 因 此 通常 所 使 用 的 点 对 远 
大 于 3。 求解 3D-3D 问题 的 方法 有 奇异 值 分 解法 563、 四 元 数 法 
59 和 和 迭代 最 近 点 算法 ACP) “Ie, 

3D-2D 运动 估计 是 从 三 维 空间 点 和 二 维 图 像 点 对 中 求解 运 
动 , 既 可 以 用 于 单 目 视觉 也 可 以 用 于 立体 视觉 。 这 种 方法 与 3D- 
3D 运动 估计 相似 , 只 是 最 小 化 函数 为 二 维 重 投影 误差 , 代价 函 
数 如 下 : 


T=argmin 2 |a -zxT QO (7) 


h: q 是 当前 帧 / EURES m(T 1.01.) 3: o 在 经 


过 运动 变换 到， 之 后 在 /上 的 投影 函数 。3D-2D 也 称 为 N 点 
透视 投影 (PNP), 是 目前 最 常用 的 一 种 运动 估计 方法 Moreno- 
Noguer 等 人 [53 给 出 了 PNP 的 多 种 求解 方法 。 求 解 3D-2D 问题 
至 少 需要 3 个 点 对 ， 称 为 P3P。 有 关 了 P3P 问题 的 研究 开始 的 较 
,迄今 为 止 有 超过 10 种 解法 50。 对 于 存在 外 点 情况 下 的 3D- 
2D 问题 ，P3P 是 鲁 棒 的 运动 估计 的 标准 方法 。 
2D-2D 方法 是 从 二 维 图 像 点 对 中 求解 运动 参数 ， 一 般 用 于 
单 目 视觉 中 。 3D-3D 和 3D-2D 方法 只 有 在 三 维 数据 能 够 获得 的 
情况 下 才能 够 实现 。 但 是 有 时 这 种 条 件 并 不 能 满足 ， 例 如 在 估 
计 单 目 摄 像 机 所 获得 的 前 两 帧 图 像 之 间 的 相对 变换 时 ， 这 两 帧 
上 的 三 维 点 还 没有 作 三 角 化 测量 。 在 这 种 情况 下 ， 极 线 约束 可 
以 用 来 估计 这 种 变换 ， 图 4 描述 了 极 线 约束 的 几何 关系 。 极 线 
约束 给 出 了 同一 个 三 维 点 在 两 个 不 同 视角 下 的 几何 约束 关系 。 


假设 点 q; AE 图 像 I, 上 某 一 个 特征 点 ， 点 Qk RE 图 Re Ty 上 qk 


的 特征 点 对 。 点 9 A 对 应 的 三 维 点 都 为 点 @ .那么 点 9 x 


年 上 。 根 据 这 一 原则 ， 记 


quo Q 以 及 摄像 机 中 心 位 于 同一 平 
有 对 应 的 图 像 点 满足 如 下 共 面 方程 ; 
GF. =0 (8) 
这 里 F 称 为 基础 矩阵 。 捕 包含 了 摄像 机 在 两 帧 之 间 的 运动 
以 及 摄像 机 的 内 部 参数 。 
如 果 摄 像 机 的 内 部 参数 矩阵 K 是 已 知 的 , 那么 共 面 方程 可 

以 写 为 


mE,m,_,=0 (9) 
ZE: mo m 是 对 应 qg. gq, 的 归 一 化 图 像 坐 标 ， 即 


u 


m,=K'q,> m =K'q..> E 称 为 本 质 矩 阵 。 本 质 矩 阵 五 : 包 


含 了 摄像 机 的 旋转 和 平移 运动 参数 ， 其 中 平移 运动 参数 


尺度 因子 决定 。 


i; 


点 对 ， 


极 平面 


到 4 ” 极 线 约束 的 几何 描述 
对 于 已 经 标定 的 相机 , 求解 2D-2D 问题 至 少 需 要 5 个 二 维 
5 点 算法 与 鲁 棒 估 计 器 (如 RANSAC 算法 ) 结合 能 够 获 


得 精确 的 位 姿 估计 结果 ， 特 别 是 Nister 等 人 提出 的 高 效 5 点 算 


法 [1 及 其 改进 版 1 已 经 成 为 存 
的 标准 


在 外 点 情况 下 求解 2D-2D 问题 


方法 。 此 外 ， 求 解 2D-2D 问题 的 方法 还 有 6 点 算法 [61、 


7 点 算法 [和 8 点 算法 [1]。Stewenius 等 人 [6 对 2D-2D 问题 的 
多 种 求解 方法 做 了 比较 ， 结 果 显 示 高 效 $ 点 算法 的 综合 性 能 最 


佳 。 有 些 车 用 VO RK 
数 还 可 以 更 少 ， 从 而 减少 了 计算 时 


了 运动 模型 约束 ， 运 动 估计 所 需 的 点 对 


间 。 例 如 ，Fraundorfer 等 人 


5 提出 了 相机 在 已 知 两 个 旋转 


情况 下 的 3 点 算法 。 在 相机 做 


平面 运动 时 ， 运 动 模型 的 复杂 度 降 为 3 个 自由 度 ， 此 时 只 需要 


两 个 点 对 。Scaramuzza 等 人 [1 通过 引入 车 辆 运动 的 非 完整 性 约 


束 ， 使 运动 模型 的 复杂 度 降 为 


2 个 自由 度 ， 他 们 只 利用 1 对 特 


征 点 求 取 车 辆 运动 的 模型 解 ， 


角 测 量 在 深度 方向 上 


的 点 ， 三 维 点 在 深度 方向 上 的 变化 


其 运动 估计 频率 高 达 400 Hz。 


一 般 而 言 ，3D-2D 的 精度 高 于 3D-3D。 原 因 是 特征 点 的 三 
很 大 的 不 确定 性 。 尤 其 是 对 于 距离 较 远 


不 会 在 投影 的 图 像 位 置 上 


产生 很 大 的 变化 ， 如 图 5(a) 所 示 。 李 海滨 等 人 [9 证 明了 测量 深 


度 的 误差 ( Az ) 与 深度 平方 ( 52) 成 正比 ， 图 5(b) 描 述 了 


二 者 之 间 


的 关系 。 在 使 用 3D-3D 时 ， 这 种 不 确定 性 对 于 运动 估计 会 造成 


很 严重 的 影响 。 


而 3D-2D 中 的 代价 函数 是 图 像 上 的 重 投影 误差 ， 


这 种 不 确定 性 在 重 投影 的 过 程 中 在 很 大 程度 上 被 抵消 了 。 此 外 ， 
为 了 从 根本 上 解决 这 种 深度 上 的 不 确定 性 问题 , Forster AN 


点 三 维 位 
在 单 


在 他 们 的 SVO 系统 中 提出 了 深度 滤波 器 的 概念 ， 推 导 了 基于 
均匀 -高 斯 混合 分 布 的 深度 滤波 器 。 他 们 将 深度 滤波 器 用 于 特征 
估计 ， 获 得 了 较 好 的 效果 。 
视觉 中 , 2D-2D 虽然 不 需要 三 人 


测量 , 但 实践 中 3D- 


2D 比 2D-2D MAES, JRA 3D-2D 数据 关联 的 速度 更 快 。 


为 了 精确 的 运动 估计 ， 外 点 的 
这 种 操作 所 需要 的 时 间 与 运动 


SS 


加 


于 单 目 V 


此 2D-2D 通常 只 | 


密 相 关 。 如 前 所 述 ，2D-2D 需要 至 少 5 个 点 对 , 但 是 3D-2D 最 
只 需要 3 个 点 对 ， 这 使 得 3D-2D 方法 的 运动 估计 速度 更 快 。 


排除 是 一 项 非常 重要 的 工作 ， 而 


占 计 所 必须 的 最 少 特征 点 数目 紧 


H ZS 


O 的 初始 化 。 


201809.00141v1 


chinaXiv 


录用 稿 


rc, > 
(a) 三 维 点 的 深度 与 其 投影 点 的 图 像 位 置 的 关系 
Azf ， 
Az = az} 
as tx, 
/| 
/| 
x / | 
= / | 
7 
Pi 
AR, | 
o 深度 % 
O) 测量 深度 的 误差 ( Az ) 与 深 度 ( Zz ) 关 系 曲线 
图 5 测量 在 深度 方向 上 的 不 确定 性 


2.3 减少 漂 


如 本 文 1.1 节 所 述 , 相机 的 当前 位 姿 C, 是 由 单 步 的 相对 运 


可 夫 性 ， 即 大 时 刻 的 状态 只 与 上 -1 时 刻 相关 ，! 
态 和 观测 都 无 关 ， 依 然 容易 造成 误差 累 禾 


而 与 之 前 的 


。 因 此 


滤波 器 方法 


A 


股 用 在 计算 资源 受 限 或 待 估计 量 比较 简单 的 场合 ， 而 非 线性 


2.3.2 


Ko 


关键 
串 起 


(BA) 是 应 | 


影 误 
所 有 
nE 


是 目前 的 主流 方法 
非 线 性 优化 法 


o 


非 线 性 优化 法 能 够 考虑 x 时 刻 的 状态 与 之 前 所 有 状态 的 关 


非 线 性 优化 方案 的 系统 ， 


PTAM03 是 第 一 个 使 用 
帧 机 制 ， 即 不 精细 的 处 理 每 


帧 图 像 ， 而 是 把 几 个 关键 帧 


来 ， 然 后 优化 其 轨迹 。 在 非 线 性 优化 方法 中 ， 光 束 法 平 差 


Zit 


帧 都 考虑 进来 时 ，BA 叫做 全 局 光束 法 平 差 (GBA). * 
定 的 m 帧 考虑 进来 时 ，BA 叫做 
CLBA)。 由 于 将 全 部 帧 考虑 在 内 ，GBA 相对 于 LBA 优化 精度 


数 把 固 


最 广泛 的 一 种 方法 。BA 通过 最 小 化 多 帧 的 重 
化 相机 的 位 姿 以 及 点 的 三 维 坐标 。 当 代价 函数 把 


e 


局 部 光束 法 平 关 


更 高 ， 但 是 GBA 的 计算 效率 很 低 。LBA 更 适合 应 用 到 实时 系 


统 中 ,例如 在 ORB-SLAM04 中 就 包含 了 一 个 LBA 的 优 


负责 


求解 更 精细 的 相机 


化 线程 ， 


Y 姿 和 空间 点 的 三 维 坐标 。TLBBADS 使 


JJ 
像 序 


— 


Z) T, (k =1..n) 以 及 k=0 时 刻 的 初始 位 姿 Co 计算 得 到 的 。 而 不 


与 实际 的 相机 相对 运动 之 间 不 可 避免 的 存在 一 定 的 误差 ， 因 此 


当前 位 姿 的 误差 取决 于 之 前 的 每 一 次 运动 


HIFR. Smith 


等 [的 的 误差 繁殖 


图 6 


相对 运动 的 串联 而 
述 了 漂移 的 产生 过 程 。 要 减少 漂移 ， 除 了 减少 帧 间 相 对 


定律 证 明了 当前 位 姿 C, 的 误差 会 随 着 单 步 的 


3 


曾 大 。 这 种 误差 逐渐 增 大 的 现象 叫做 漂移 ， 


运动 误差 之 外 ， 主 要 有 滤波 器 法 和 非 线 性 优化 法 两 种 。 


图 6 VO 的 漂移 现象 
〈 蓝 点 表示 初始 位 置 ， 红 点 表示 真实 位 置 ， 黑 点 表示 测量 位 置 ) 
2.3.1 滤波 器 法 
滤波 器 法 在 早期 的 VO 中 占据 主导 地 位 ， 其 中 最 常用 的 是 


扩展 卡尔 曼 滤波 器 CEKF) N, 


EKF 以 相机 的 当前 位 姿 和 所 有 


点 的 三 维 坐标 为 


大 态 变 量 ， 更 新 其 均值 和 协 方差 。 对 于 VO 这 


种 非 线 性 系统 ，EKF 实际 上 给 出 了 单 次 线性 近似 下 的 最 大 后 验 
估计 。Kitt 等 人 563 使 用 无 迹 卡尔 曼 滤 波 CUKF) 获得 了 比 EKF 


更 精确 的 估计 结果 。 与 采用 
近 3 阶 精度 。 还 有 很 多 算法 相对 EKF 能 够 降低 计算 的 复杂 
如 稀疏 扩展 信息 滤波 器 (SEIF) I, Atlas 


阶 泰勒 展开 的 EKF 相 比 , UKF 接 


EF 
又， 


框架 中 、 分 治 法 [7 


等 。 但 是 滤波 器 方法 有 很 大 的 局 限 性 ， 它 在 一 定 程度 上 假设 了 


提 ZN 


深度 


种 两 阶段 局 部 双 
列 中 的 信息 和 约束 


光 


， 对 运动 估计 结果 进行 
前 许多 先进 的 VO 系统 都 采用 了 LBA Wik! 六。 


束 法 平 差 的 方法 ， 充 分 利 / 
Rk. & 


TX BI 
实 上 ， 


ait 


基于 深度 学 习 的 视觉 里 程 计 


以 上 所 述 VO 系统 都 是 利 | 
同 于 上 述 思路 ， 近 几 年 来 ， 有 学 者 尝试 使 / 
learning, DL) 的 方法 揭示 图 像 光 流 和 相机 运动 的 关系 , 为 VO 
了 新 的 解决 方案 。Konda 等 人 WI 最 先 通过 提取 视觉 运动 和 
言 息 实现 了 基于 DL 的 立体 图 


信息 


利用 


训练 


生成 


好 的 
要 重 
大 的 


Ca» AAT 


CNN 实现 了 输入 为 RGB B 
定位 系统 。 该 系统 提出 了 23 
移 学 习 将 分 类 问题 的 数据 库 


几何 原理 恢复 相机 的 运动 。 不 


JREF (deep 


VO。 在 使 用 立体 图 像 估计 出 深度 


经 网络 (convolutional neural network, CNN) 


通过 softmax 函数 预测 相机 速度 和 方向 的 改变 。 Kendall 等 人 [9 


多 


像 ， 输 出 为 相机 位 姿 的 端 到 端 


恨 深 度 卷 积 网 络 PoseNet， 利 用 迁 


用 于 解决 复杂 的 图 像 回 归 问 题 。 其 


i 


得 到 的 特征 相 较 于 


传 


糊 以 及 相机 内 参 等 具有 更 强 的 鲁 棒 性 ,他们 提出 利用 


部 视觉 特征 ， 对 于 光照 、 运 动 模 
SfM 自动 


mJ 


训练 样本 的 标注 ,不 需要 人 工 标注 
但 是 这 种 方法 对 于 大 规模 场景 非常 耗 时 。 
作为 场景 的 表 观 地 图 ， 因 


CNN 模型 


每 一 幅 图 像 的 位 姿 信息 ， 


于 系统 将 一 个 训练 
比 在 遇 到 新 环境 时 需 


新 训练 或 者 微调 ， 


这 也 


是 将 DL 用 于 VO 时 面 对 的 一 个 最 


问题 。 为 了 解决 这 一 问题 ，Costante 等 人 [7 用 稠密 光 流 代 


$ RGB 图 像 作 为 CNN 的 输入 。 该 系统 设计 了 三 种 不 同 的 CNN 


架构 用 


等 条 He 


影响 


要 是 


于 VO 的 特征 学 习 ， 实 现 了 算法 在 图 像 模糊 和 曝光 不 足 


的 鲁 棒 性 。 然 
很 大 ， 当 图 像 序列 


于 训练 数据 缺少 


0 ’ 
贞 间 
高 速 


Wang 等 人 


SAE Y 


N 


实验 结果 也 表明 训练 数据 对 于 算法 
运动 较 大 时 ， 算 法 误差 很 大 ， 这 主 
训练 样本 。 

度 递归 卷 积 神经 网 络 (recurrent 


convolutional neural networks, RCNN), 提出 了 一 种 新 的 端 到 端 
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的 单 目 VO FEA. FE 
动 的 为 VO 问题 提供 


F RCNN， 不 仅 可 以 使 ) 


j 卷 积 神经 网 络 自 


+ 


有 效 的 特 


征 表示 ， 也 可 以 使 


递归 神经 网 


的 视差 图 和 侦 挡 图 的 立体 


图 像 。 同 时 包 


含 了 每 一 帧 相机 的 3 AE 


位 


和 方向 信息 ， 因 此 这 个 数据 集 也 可 


络 隐 式 的 对 运动 模型 和 数据 关联 模型 进行 建 模 。 他 们 在 KITTI 


的 VO 数据 集 上 的 实验 表明 ， 其 算法 的 性 能 可 以 和 
媲美 。 但 是 他 们 也 强调 基于 DL 的 VO 并 不 能 取 


的 VO 方法 相 


目前 最 先进 


代 传统 的 基于 几何 方法 的 VO， 而 是 一 种 可 行 的 补充 。 最 新 的 
文献 [ 引 构 建 了 一 个 自 编码 深度 网 络 学 习 产 生 光 流 的 非 线 性 潜 


在 空间 描述 。 
产生 相机 的 


这 个 


自 运动 


自 编码 网 络 与 男 外 一 个 


经 网 络 联合 训练 以 


的 光 流 


者 述 和 更 精确 的 运动 


与 传统 的 基 


+ 


数 以 及 相对 尺度 问题 ， 


网 络 估计 器 的 设计 和 | 
化 。 目前， 基于 DL 的 VO 研究 


几何 
建立 复杂 的 物体 运动 的 几何 
运动 估计 的 准 


古 计 ， 两 个 网 络 互 相 借鉴 可 以 获得 更 加 和 鲁 棒 
估计 。 
方法 的 VO 相 比 ， 


F DL 的 VO 无须 


模型 ， 


其 至 无 
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考虑 相机 的 校准 参 


Fil 


景 与 训练 场景 存在 较 大 差异 时 ， 其 性 
于 DL 的 VO 方法 来 看 ， 不 同 的 实现 方法 之 
在 较 大 的 差异 ， 对 各 类 场景 的 鲁 棒 性 即 网 络 的 泛 化 能 力 有 待 进 


练 的 


E 确 性 和 和 鲁 棒 性 依赖 于 神经 
像 库 是 否 涵盖 待 测 场景 的 变 
仍然 处 于 起 步 阶段 ， 
能 不 够 理想 。 从 现 有 的 基 


K 


a 


当 测 试 场 


间 神经 网 络 架构 存 


Zo 


wep 


据 集 ， 人 工 图 像 数 据 集 的 主要 特 


以 用 于 评价 相机 跟踪 方 


相 比 于 依靠 GPS/IMU 等 传感器 获取 真实 值 的 真 仿 


区 


像 数 


点 是 


真实 值 不 含 噪声 。 


DEMOL 4 
g 3 P RE-SLAM2 一 “一 
Bi ae S-LSD-SLAM —*— 
E SPTAM 一 = 一 
由 2 TLBBA 一 一 
8 ,ee VIS02-S 一 :一 
S 154 
a 
a 1 
R 
e 05 

0 

100 200 300 400 500 600 700 800 
Path Length [m] 
b= I 
(a) 平 移 误 差 
0.01 
K DEMO —+— 

z (0012 ORB-SLAM2 一 :一 
E] 0.01 -SLAM 
3 
5 0.008 
i 0.006 
号 0.004 
æ% 0.002 


300 400 


Path Length [m] 


(b) 旋 转 误差 


500 


600 700 800 


一 步 提高 。 图 7 几 种 VO 系统 随 着 路 径 长 度 增加 的 平移 和 旋转 误差 
4 ”算法 评价 表 3 几 种 VO 系统 在 KITTI 上 的 评价 结果 
系统 名 称 ATE ARE 
要 比较 各 种 VO 系统 的 性 能 ， 需 要 在 相同 的 图 像 序 列 上 进 DEMO”! 1.14% 0.0049[deg/m] 
行 测试 ， 为 此 ， 一 些 机 构 提 供 了 公共 数据 集 。 本 部 分 介绍 目前 ORB-SLAM204 151 1.15% 0.0027[deg/m] 
比较 流行 的 三 种 数据 集 : KITTIES, Tsukuba! TUMS% S-PTAMI83] 1.19% 0.0025[deg/m] 
集 。 表 2 给 出 了 这 三 种 数据 集 的 基本 信息 。 S-LSD-SLAM"7! 1.20% 0.0033[deg/m] 
表 2 三 种 VO 数据 集 的 基本 信息 TLBBAMNS 1.36% 0.0038[deg/m] 
数据 集 相机 类 型 ” 场景 网 址 VISO2-S05 2.44% 0.0114[deg/m] 
http://www.cvlibs.net/datasets/kitti/eval_ 德国 慕尼黑 工业 大 学 TUM) 提供 了 针对 RGB-D 和 单 目 
KITTI ”立体 Ee) 
odometry.php 等 相机 的 多 种 数据 集 , 其 中 最 常用 的 是 它 的 RGB-D 数据 集 。 该 
本 http://www.cvlab.cs.tsukuba.ac,jp/dataset ”数据 集中 包含 了 39 个 在 室内 环境 下 拍摄 的 图 像 序列 ， 涵 盖 了 
/sukubastereo php 各 种 各 样 的 场景 以 及 相机 运动 方式 。 大 多 数 序列 由 手持 的 
http://vision.in.tum.de/data/datasets/rgbd- Kinect 相机 拍摄 得 到 ， 做 无 约束 的 6 自由 度 运 动 ， 还 有 一 部 分 
ee dataset 序列 的 Kinect 相机 装 在 3 个 机 器 人 上 。 该 数据 集 还 根据 结构 和 
KITT! 是 德国 卡尔 斯 鲁 厄 理工 学 院 和 芝加哥 丰田 技术 研究 纹理、 含有 动态 目标 等 特征 将 场景 分 类 。TUM 数据 集 提供 了 
所 联合 创办 的 一 个 算法 评测 平台 。KITTI 中 的 图 像 序列 是 由 行 。 实 值 ， 它 是 由 一 个 外 部 的 运动 捕捉 装置 测量 得 到 的 ， 而 且 还 提 
驶 的 汽车 在 城市 和 自然 环境 中 拍摄 的 ， 车 速 、 光 照 以 及 行驶 轨 供 了 测评 工具 。TUM 也 给 出 了 算法 的 评价 准则 , 即 相 对 位 姿 误 
迹 的 类 型 多 种 多 样 。KITTI 的 VO 模块 包括 22 个 立体 图 像 序 2% (RPE〉 和 绝对 轨迹 误差 (ATE )。 
Al, 其 中 序列 00 到 10 为 训练 集 ，KITTI 为 这 11 个 序列 提供 了 5 ”结束语 
真实 值 。 图 像 序列 11 到 21 为 测试 集 , 对 于 这 11 个 序列 , KITTI 有 全 
不 公开 真实 值 ， 测 试 集 用 于 评价 各 种 VO 系统 的 性 能 。 此 外 ， 本 文 结合 一 些 先进 的 VO 系统 ， 对 VO 技术 进行 了 综述 。 
KITTI 的 设计 者 还 给 出 了 VO 算法 的 评价 准则 ， 即 平均 平移 误 。 VO 使 用 摄像 机 人 蔡 代 传统 的 传感器 ， 造 价 较 低 。 它 无 须 场景 和 
Zé (ATE) 和 平均 旋转 误差 (ARE)。 图 7 显示 了 几 个 流行 的 VO ”运动 的 先 验 信息 ， 不 存在 编码 器 读数 不 准 和 传感器 精度 降低 等 


系统 随 着 路 径 长 度 增加 的 旋转 误差 和 平移 误差 。 表 3 列 出 了 它 
即 ATE 和 ARE。 


们 的 评价 结果 ， 
Tsukuba žr} 
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像 数据 集 。 


因素 引起 的 数据 误差 ， 不 受 不 平坦 地 带 
前 , VO 技术 已 成 功 应 用 于 陆地 、 航空 和 水 下 等 


条 


牛 的 影响 。 


各 种 移动 机 器 人 系统 中 ， 此 外 ，VO 还 


这 个 数据 集 是 一 个 1 分 钟 长 的 视频 ， 包 含 了 1800 对 带 有 真实 


类 


包子 产品 等 工业 中 。 


尽管 如 此 , VO 系 


车 轮 打滑 以 及 其 他 不 宜 


广泛 应 用 于 汽车 和 消费 
统 仍 然 面临 一 些 限 制 ， 
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如 图 像 缺 少 纹理 ， 相 机 快速 移动 而 引起 的 图 像 模糊 ， 光 照 和 成 
像 条 件 的 影响 ， 这 些 都 会 导致 对 相机 位 姿 的 估计 不 准确 。 最 大 
的 挑战 是 如 何在 室外 环境 下 的 长 距离 运行 中 保持 稳定 性 。 从 


VO 面临 的 这 些 问 题 以 及 近期 出 现 的 文献 来 看 ， 如 下 研究 方向 
可 能 是 今后 研究 的 趋势 : 

a) 相机 的 种 类 多 样 化 。 除 了 单 上 日、 立体 和 RGB-D 相机 之 
外 ， 还 有 一 些 VO 系统 使 用 了 其 他 类 型 的 相机 ， 如 全 方位 相机 
[ 鸣 、 鱼 眼 相 机 [5 和 反射 折射 相机 [9 等 。 这 些 相机 往往 适合 不 同 
的 场景 ， 如 Zhang 等 B87] 经 过 实验 认为 大 视 场 角 相 机 适合 室内 等 
空间 较 小 的 环境 ， 而 小 视 场 角 相 机 适合 室 乡 — 
因此 ， 可 以 从 场景 和 相机 的 关系 出 发 ， 选 择 合 
曾 强 VO 的 环境 适应 性 。 

b) 设计 高 性 能 的 特征 检测 和 描述 符 。 近 几 年 ,特征 算法 领 
或 快速 发 展 ， 新 的 特征 算法 不 断 涌现 ， 如 二 进 制 描述 符 
NESTEDB5 对 外 点 排除 显示 了 很 好 的 效果 ， 而 Desai 等 B9 提 出 
的 SYBA 特征 描述 符 能 够 有 效 减 少 漂移 。 另 外 ， 利 用 边缘 等 更 
高 层 的 图 像 信息 能 够 减少 算法 对 于 特征 的 依赖 ， 实 际 上 ，LSD- 
SLAM 就 利用 了 图 像 的 边缘 信息 。 未 来 一 个 可 能 的 研究 思路 是 
将 点 特征 和 边缘 特征 相 结合 ， 从 而 使 VO 能 够 更 好 的 应 对 低 纹 


TH 


S] 


z 
S 
i 


理 的 场景 。 

c) 利用 已 有 的 基于 视觉 的 运动 目标 检测 算法 的 成 果 。 文中 
提 到 运动 个 重要 来 源 ， 如 何 去 除 运动 目标 点 是 
VO 研究 的 一 项 重要 内 容 。 目 前 ， 基 于 视觉 的 运动 目标 检测 已 
经 取得 了 大 量 的 研究 成 果 ， 一 个 可 行 的 思路 是 将 这 些 研究 成 果 
和 VO 相 结 合 去 除 运动 点 ， 排 除 运动 目标 的 干扰 。 这 对 于 提高 
特征 点 集 的 质量 ， 进 而 提高 运动 估计 的 精度 具有 重要 意义 。 

d) 基于 DL 的 VO 无 须 建立 复杂 的 物体 运动 的 几何 模型 ， 
可 以 从 图 像 序列 的 变化 中 训练 出 特征 ， 并 且 映 射出 位 姿 参 数 ， 
是 VO 研究 的 一 个 新 方向 。 如 何 提高 现 有 的 基于 DL 的 VO 对 
各 类 场景 的 鲁 棒 性 是 一 个 关键 问题 。 
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